国际 Data Curation 研究 与 实践 发 展 综述 
Review on the international development of research and practice of 
Data Curation 


吴 振 新 1 PRE 12 李 文 燕 12 YI 1 许 丽 媛 1 
(1 中国 科 学 院 文献 情报 中 心 北京 100190;“ 中 国 科学 院 大 学 北京 100190) 
【关键 词 】 科研 数据 ”研究 数据 ”保管 保存 综述 挑战 ”发展 机 遇 


Key words: Science Data Research Data Curation Preservation Review 


Challenges Development Opportunities 

【 摘 要 】 通过 调研 国际 主要 机 构 的 战略 规划 ， 归 纳 出 Data Curation 在 管理 、 资 源 
建设 、 技 术 基 础 设施 方面 存在 的 主要 挑战 。 针 对 这 些 挑战 ， 从 战略 规划 、 数 据 评估 与 迟 选 政 
策 、 关 键 技术 、 审 计 和 认证 四 方面 全 面 回 顾 了 国际 Data Curation 研究 、 实 践 的 发 展 情况 。 
分 析 图 书馆 在 大 数据 科研 环境 下 可 能 参与 科研 数据 保管 的 领域 ， 为 图 书馆 在 Data Curation 
活动 中 谋求 发 展 机 会 。 


Abstract: The paper summarizes current challenges of Data Curation in management, 


resource development, technology infrastructure base on reviewing major research institutions’ 
strategic plans; and fully reviews the developments of Data Curation research and practice about 
strategic plan, data appraisal and selection, key technologies, audit and certification against these 
challenges.The paper concludes potential domains that library can participate in Data Curation, 


tries to find more development opportunities for libraries in this area. 
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TARR HY Ac FES E A i A EE, 也 催生 了 新 的 科学 研究 模式 一 e-Science 
的 发 展 ，Jim Gray 博士 将 这 种 新 的 数据 探索 型 研究 方式 称 为 科学 研究 的 “第 四 种 范式 ”(The 
Fourth Paradigm)， 这 标志 着 科学 研究 从 以 计算 为 中 心 转变 到 以 数据 为 中 心 ， 数 据 成 为 科研 
的 灵魂 。 如 今 ， 数 据 已 不 再 仅仅 是 收集 和 存储 的 对 象 ， 它 已 经 转变 成 国家 的 基础 战略 资源 ， 
可 以 用 这 种 资源 来 协同 解决 其 他 诸多 领域 的 问题 ， 如 在 马 航 MH370 失 联 客机 事件 中 ， 中 国 
科学 院 遥 感 与 数字 地 球 研究 所 利用 其 保存 的 遥感 卫星 数据 与 马 航 失 联 客机 疑似 位 置 海域 的 
卫星 遥感 数据 对 比 , 进而 确定 了 几 处 油 迹 带 区 域 , 这 对 于 客机 失事 位 置 的 确定 有 重要 作用 。 

Data Curation 常 被 译 为 数据 保管 、 数 据 保 存 等 ， 这 里 的 Data 主要 是 指 科研 数据 。 业 内 
有 很 多 有 关 Data Curation 的 定义 ， 比 较 有 代表 性 的 是 英国 数字 保管 中 心 (Digital Curation 
Centre, 以 下 简称 DCC) 的 定义 : “Data Curation 指 的 是 在 数字 数据 的 生命 周期 内 ， 对 这 
些 数据 进行 维护 、 保 存 以 及 实现 价值 增值 的 所 有 活动 ， 这 些 活 动能 够 提高 现 有 数据 的 长 期 
利用 价值 ; 主动 管理 这 些 数据 有 利于 减少 在 重新 研究 这 些 数 据 时 出 现 的 各 种 威胁 以 及 降低 
因数 字 技 术 的 退化 而 带 来 的 各 种 风险 ;同时 ，Data Curation 所 进行 的 一 些 列 活动 还 能 使 在 
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Data Curation 是 e- Science PEE FRM AHI EA 


FP 保 管 的 数据 能 够 更 广泛 地 共享 给 研究 机 构 ， 以 便 支 撑 未 来 的 研究 活动 。” 


I 大 规模 科学 计算 的 产物 ， 是 应 对 “大 


数据 ”时 代 科研 数据 管理 和 保存 需求 的 一 种 必然 的 管理 实践 ,中 国 科学 院 文献 情报 中 心 为 了 


顺应 新 的 科 生 


服务 需求 、 建 并 有 效 服务 于 数字 科研 的 六 


模式、 新 功能 、 新 机 制 ， 开 展 了 系列 


战略 调研 活动 ， 本 文 为 “数据 管理 和 数据 基础 设施 建设 新 技术 方法 ”部 分 成 果 。 


2 Data Curation 面临 的 挑战 分 析 


求 ， 


BEA RHI Z 


Data Curation 依旧 面临 着 许多 问题 及 挑战 。 


2015 年 日 程 中 将 目前 在 数据 管理 


美国 国家 数字 管理 联盟 (National Digital Stewardship Alliance， 以 下 简称 NDSA) 在 其 
领域 遇 到 的 问题 及 挑战 归纳 为 以 下 几 点 : 1) 建设 数字 内 容 


数字 管理 人 员 : 4) 技术 
定 文件 格式 行动 方案 、 内 容 完整 性 的 保障 等 中。 


UK Data Archive 在 J 


建立 和 颁发 存储 认证 ;2 


及 推进 合作 发 


合 ) 


rel 


Am 


11, 


的 发 
估 ) ; 


DCC 则 将 未 来 数 十 年 Data Curation ; 
es 2) 数据 管理 计划 

4) 明确 应 保存 的 数据 资源 ，5) 数 ] 
可 以 看 出 ， 未 来 一 段 时 间 内 上 


É: 


方面 ; SUREN TAT E BEER PEA AE A E SESE ABA AAT: BRAE E 
主要 集中 在 数据 组 织 、 


设 3 


; 3) 建 立 更 有 效 的 管理 
选择 、 采 集 、 摄 入 和 保存 的 工 


昌 规 模 的 扩大 和 数据 种 类 的 不 断 增 加 ， 传 统 的 数据 保存 方法 已 无 法 满足 需 
虽然 越 来 越 多 的 机 构 不 同 程度 的 涉足 Data Curation， 但 作为 一 个 新 兴 的 研究 领域 ， 


集合 的 关键 问题 ,包括 数字 内 容 的 全 局 性 问题 、 大 规模 内 容 选择 的 方法 、 特 殊 格 式 数字 内 容 
的 挑战 ; 2) 缺乏 文 持 保 存活 动 的 资源 导致 对 了 
基础 设施 的 发 展 方面 ， 包 括 协调 分 布 式 服务 生态 系统 号 待 发 展 、 制 


成 本 、 价 值 的 研究 需求 增强 ; 3) 缺乏 足够 的 


H 2010—2015 年 战略 规划 中 将 Data Curation 面临 的 挑战 归纳 为 ，1) 


) 规划 方面 需要 保证 多 来 源 的 资助 、 与 用 户 的 期 望 和 技术 要 求 同 步 


的 Data Curation 所 


结构 和 内 部 记录 管理 系统 ，4) 开发 有 效 的 数据 ( 集 
具 ， 提 高 数据 质量 和 数据 包 的 有 效 性 ， 发 展 自 存档 ; 5) 
开发 新 的 数据 访问 模式 、 分 发 和 可 视 化 工具 ， 重 构 数 据 注册 和 许可 系统 ， 整 合 相 关 数 据 服 


各 遇 到 的 挑战 归纳 为 以 下 几 方面 : 1) 数 据 管理 软件 
审核 承诺 的 一 致 性 ，3) 有 限期 的 数据 保存 策略 的 影响 (管理 评 
据 的 知识 产权 ; 
遇 到 的 挑战 和 问题 集中 在 以 下 几 个 方 


6) 理解 真正 语义 上 的 长 期 保存 外。 


管理 方面 主要 集中 在 战略 规划 、 成 本 研究 、 人 员 与 培训 教育 、 知 识 产 权 、 审 计 与 认证 等 


体系 架构 的 发 展 等 方面 。 


格式 管理 、 数 据 的 质量 保障 完整 性 保障 )、 保 存 系统 (工具 ) 及 


3 Data Curation 研究 与 实践 发 展 


近年 来 ， 许 多 机 构 、 


的 下 


究 。 


项 目 在 Data Curation 领域 


| 


长 


开 了 大 量 深入 的 研究 与 实践 。 本 文 基 


于 上 述 有 关 Data Curation 面临 的 挑战 ， 初 步 总 结 和 分 析 各 机 构 和 项 目 为 应 对 这 些 挑战 所 开 
展 的 相关 研究 和 实践 活动 。 由 于 作者 研究 领域 所 限 , 本 文 没有 涉及 教育 培训 和 知识 产权 方面 


3.1 战略 及 规划 


战略 及 规划 的 制定 是 开展 Data Curation 首先 要 解决 的 重要 问题 ， 这 些 战 略 规划 包括 政 
策 规划 、 可 持续 发 展 战略 、 合 作战 略 等 方面 。 目 前 ， 

划 、 合 作战 略 的 研究 比较 成 熟 ， 出 现 了 一 些 具有 实践 参考 价值 的 战略 框架 、 解决 方案 以 及 工 
Ho 但 可 持续 发 展 战 略 的 研究 还 处 于 起 始 阶段 ， 仅 在 成 本 研究 上 出 现 了 少数 研究 成 果 ， 还 不 
足以 支持 保存 实践 活动 。 


国际 上 对 Data Curation 在 全 局 政策 规 


3.1.1 Data Curation 政策 规划 


在 政策 规划 方面 ， DCC 提供 了 大 量 参考 资料 和 行动 指南 ， 并 提供 了 一 个 有 关 制 定 研究 
数据 管理 策略 的 方案 5 中， 它 包括 五 个 步骤 : 1) 列 出 现 有 的 管理 框架 ，2) 制定 一 张 管理 内 容 
的 表格 ; 3) 获得 管理 者 的 支持 ; 4) 咨询、 起草 及 修改 ; 5) 批准 与 实施 。 

MaRDI-Gross 项 目 也 给 出 了 在 “大 科学 ”背景 下 制定 数字 管理 规划 (Digital Management 
Plan， 以 下 简称 DMP》〉 的 解决 方案 时， 它 从 1) 制定 保存 目标 ， 2) 数据 发 布 计划 ; 3) 数据 
验证 ; 4) 软件 及 服务 的 保存 ; 5) 成 本 及 成 本 模型 ; 6) 数据 丢失 模型 化 六 个 方面 来 制定 DMP 
的 实践 流程 框架 。 


目前 , 已 有 成 型 的 Data Curation 规划 制定 工具 可 供 使 用 , 包括 DCC 开发 的 DMPonline、 


UC3 开发 的 DMPtool、IDMP 开发 的 CARDIO、SCAPE 开发 的 Plato 以 及 OpenDOAR。 


3.1.2 BER 


各 规划 


数据 体 量 的 指数 增长 和 数据 类 型 不 断 的 复杂 化 ， 给 Data Curation 带 来 了 越 来 越 严 峻 的 
挑战 ， 为 解决 Data Curation 面临 的 问题 和 减轻 保存 风险 ， 跨 领域 的 合作 行动 计划 的 需求 不 


RI. 


DCU (Digital Curation Unit) 通过 推动 跨 学 科 合 作 研究 规划 和 行动 计划 来 帮助 解决 Data 
Curation 问题 , 它 提出 了 一 个 包含 六 方面 的 行动 计划 趾 : 1) 用 生命 周期 的 方法 来 管理 保管 的 
信息 对 象 ， 其 中 应 包含 与 指定 社团 的 动态 互动 :2) 采用 以 事件 为 中 心 的 方法 ， 充 分 表示 数 
据 的 “活动 事件 ”，3) 广义 上 的 Data Curation 实践 者 应 包括 那些 参与 生成 信息 对 象 的 公共 传 


=~ 


播 及 利用 的 相关 人 员 ; 4) 确定 一 个 基本 的 跨 学 科 范 围 ， 使 Data Curation 能 充分 满足 学 科 差 
异化 需求 ， 5) 使 信息 对 象 的 相关 解释 性 内 容 作为 社区 的 数字 记忆 ， 并 进行 模拟 存档 ; 6) 提 
昌 面 向 机 构 的 方式 来 保管 。 


随 着 合作 政策 的 发 展 ， 一 系列 有 效 的 合作 实践 在 数字 保管 的 各 个 方面 都 产生 了 积极 的 
影响 ， 如 促进 开源 软件 开发 的 协作 、 人 员 和 资源 信息 的 共享 、 参 与 标准 和 实践 的 开发 、 协 调 


数字 保管 责任 、 开 发 协作 的 遵 选 决策 和 数字 集合 政策 等 。 在 这 方面 表现 突出 的 有 国际 互联 网 
保存 联盟 (International Internet Preservation Consortium，IIPC)， 其 成 员 合作 开发 了 一 系列 


开源 工具 ， 并 支持 可 持续 的 共享 维护 模型 。 
同时 ， 有 关 的 合作 组 织 机 构 不 断 增 加 ， 如 全 球 CLOCKSS 网 络 ， 它 通过 分 散 的 、 地 理 
间 不 同 的 保存 模式 来 确保 组 织 内 共同 的 数字 资产 得 以 完整 地 保存 ， Data 一 PASS 是 一 个 自愿 
的 机 构 组 织 同盟 ， 目 的 是 为 了 存档 、 编 目 、 保 存 社会 科学 研究 使 用 到 的 数据 ，MetaArchive 


是 由 众多 的 记忆 机 构 组 织 和 创建 的 数字 保存 网 络 ， 同 时 也 是 一 个 安全 且 具 有 成 本 效益 的 仓 


fifi; DPN (The Digital Preservation Network) 长 期 保存 网 络 通过 在 不 同 的 节点 上 保存 数据 集 


m 


范 的 多 机 构 管理 方法 在 使 用 和 社会 认可 度 方面 均 显著 增 力 
3.1.3 可 持续 发 展 规划 


完成 数字 管理 任务 需要 适当 的 资源 来 文 持 , 但 不 可 能 


Ho 


的 副本 来 防止 由 于 技术 、 组 织 或 自然 灾害 等 原因 而 导致 的 灾难 性 损失 。 这些 组 织 和 他 们 所 示 


足够 的 资源 来 支持 存储 机 构 保存 


所 有 的 数据 , 如何 有 效 地 对 保管 成 本 进行 预算 、 管理 及 分 配 以 及 如 何 获 得 所 需 的 资源 已 经 成 


为 可 持续 发 展 的 重要 问题 。 但 由 于 Data Curation 本 身 的 复杂 怕 


及 涉及 多 方 利益 ， 数 字 管 理 


成 本 估计 比较 复杂 和 模糊 ， 目 前 儿 乎 没有 模型 能 支持 成 本 估算 的 比较 数据 或 纵向 数据 。 
欧盟 资助 的 主要 致力 解决 保存 费用 


4C (Collaboration to Clarify the Costs of Curation) 是 


问题 的 项 目 ， 他 们 分 析 了 现 有 的 10 种 成 本 模型 及 工具 ， 并 对 每 一 种 模型 进行 了 分 析 及 评 


价 ， 通 过 分 析 己 有 的 数字 保存 成 本 建 模 工 作 , 他 们 提出 ] 


建立 可 持续 性 


数字 保存 和 获取 的 最 


佳 实践 建议 。 目 前 ，4C 提供 了 一 个 包括 尝试 解决 效益 、 风 险 、 价 值 、 质 量 和 可 持续 性 的 成 


本 模型 工具 和 框架 , 并 初步 制定 了 一 个 经 济 可 持续 性 参考 模型 、] 


台 工 具 一 CCEx。 


字 长 期 保存 的 工具 和 服务 ， 以 期 提供 有 效 的 解决 方案 。 


这 些 项 目的 成 果 将 有 助 于 厘清 成 本 以 及 辅助 决策 和 战略 规划 的 表 


进 数 字 保存 的 长 期 管理 和 发 展 可 持续 的 基础 设施 建设 。 
3.2 数据 评估 与 送 选 政策 


POWRR 项 目 则 是 利用 有 限 资源 进行 数字 对 象 长 期 保存 和 o 
些 因 缺少 资源 而 难以 开展 数字 保管 的 中 小 型 机 构 。 该 项 目 正在 评估 能 够 在 中 小 


究 的 重要 项 目 


于 发 了 一 个 保管 成 本 交换 平 


—s 


它 旨 在 帮助 那 
机 构 中 实现 数 


定 ， 反 过 来 也 可 以 促 


数字 数据 的 特征 使 得 对 它 的 收集 变 得 异常 复杂 并 因此 在 保存 方面 也 变 得 复杂 。 数 据 规模 


一 直 在 扩大 , 数据 的 粒度 和 互联 性 也 变 得 更 加 繁杂 。 传统 的 资源 评估 入选 通 
自身 的 优先 级 、 能 力 和 指导 政策 ， 而 数字 数据 则 有 其 特殊 必 


策 也 更 加 复杂 化 。 


周期 的 数字 管理 计划 。 


4 
党 会 


DCC 提出 了 一 个 选择 及 评估 保管 数据 的 方案 外， 即 通 过 
要 保管 的 数据 ， 其 中 要 考虑 的 因素 包括 : 1) 难以 评估 未 来 重 月 
前 的 数据 ; 3) 数据 及 相关 文档 的 质量 ; 4) 不 可 奉 代 的 观测 性 数据 《与 实验 数据 相对 ) ; 
5) 重新 生成 实验 数据 的 成 本 :6) 估算 保存 具体 数据 集 的 成 本 。 


NERC (Natural Environment Research Council) 于 2012 4 


Data Value Checklist) ， 以 便 科 研 社区 选择 需要 保存 的 数 


个 弱 分 析 框 架 来 辅助 


据 。 


日 价值 的 数据 ; 


研究 实践 表明 , 目前 渗透 到 生活 、 文 化 及 学 术 各 方 后 


的 大 上 


数学 数据 还 无 


经 常 与 机 构 的 实力 和 使 命 相 关 。 


29 


档案 馆 获 取 , KEER E R HP AERE Ji AE BLT RRR E 
生 数 字 材 料 〈 如 网 络 档案 、 数 字 记 录 、 文 档 及 手稿 档案 的 硬盘 等 )， 另 外 对 数字 材料 


aE J 


机 构 


E， 使 得 相应 的 数据 评估 和 遂 选 政 


NDSA 提出 了 一 系列 有 关 数 据 评 估 和 选择 的 推荐 做 法 ， 包 括 数 据 相 关 性 、 文 档 、 资 金 、 
研究 和 应 用 的 需求 、 可 用 性 、 风 险 和 易 用 性 等 方面 ， 这 将 有 助 于 机 构 局 动 涉及 整个 信息 生命 


决定 需 
科 形 成 


FE 发 布 了 数据 权重 清单 (NERC 


书馆 或 
殊 的 原 
的 选择 


3.3 Data Curation 的 关键 技术 发 展 概述 


3.3.1 元 数据 标准 规范 的 


元 数据 一 直 是 Data Curation 关注 的 重要 领域 。 讨 


元 数据 标准 或 推荐 规范 。 
NDSA 的 “数字 保存 级 别 ” 定义 的 四 个 级 别 包 含 了 Data Curation 流程 
分 别 是 记录 型 、 管 理 型 、 描 述 型 、 结 构 型 、 技 术 型 元 数据 以 及 保存 元 数据 。 


DCC 发 布 的 


成 ,并 对 需要 捕 提 的 信 ， 
境 信息 ， 从 而 为 将 来 的 搜索 、 检 查 、 
Research Data @ Essex 以 IDMB 项 目 


据 模型 。 


2013 年 4 月 , 英 
美国 声音 记录 元 数据 方案 ] 
的 标准 方法 并 开发 了 一 个 工具 (Content Creator Data Tool, CCD) 来 帮助 数据 产生 者 及 拥有 


者 收集 数据 。 


关于 学 科 元 数据 标准 
引起 了 研究 数据 管理 (Research Data Management, RDM) 社区 的 极 大 关注 
了 学 科 元 数据 网 页 馈 以 帮助 疏 


判定 和 形成 


F 多 著名 的 机 构 和 项 目 都 推 


Hy AS 


H 


的 相关 信息 《元 数据 的 概念 、 使 用 群体 和 使 


的 不 同 元 数据 ， 


方法 ) 


EE， 随后 专门 创建 


内 类 型 进行 了 识别 , 该 框架 可 丰 


Bb 些 需 要 确定 采用 哪 种 元 数据 标准 满足 自己 需求 的 
韦 恩 州立 大 学 提出 了 用 于 文物 数字 保存 的 语 境 元 数据 框架 , 这 个 框架 I 


Jo 


八 个 语 境 维度 组 


有 保 在 一 个 元 数据 方案 


利用 、 


国 公布 了 一 个 


管理 


] 于 该 国 存储 库 的 元 数据 应 用 


口 


E 和 保存 活动 提供 极 大 的 便利 。 
的 一 个 元 数据 模型 为 出 发 点 , 建立 了 一 个 三 层 元 数 


PIG aR TRAE Nt 


real 


开发 项 


3.3.2 文件 格式 的 识别 、 选 择 与 转换 


数字 文件 格式 的 稳定 怕 


E 和 文件 格式 过 时 


目 为 其 记录 的 


er AR ill Ze T 


数据 科研 环境 下 ， 如 何 选择 一 种 好 的 数据 格式 来 保管 数据 是 一 项 有 挑战 性 、 


面 对 正 在 积累 大 量 的 数字 集 , 切实 可 行 的 、 
的 信息 的 策略 和 于 
欧洲 聚变 发 展 协议 (European Fusion Development Agreement, EFDA) 为 了 防止 文件 格 
对 如 何 选择 文件 格式 提出 了 上 明 胡 
县 并 记录 这 些 文件 格子 


式 过 时 ， 在 Data Curation 实践 上 
保存 所 有 使 用 到 的 文 从 
音 上 县 应 该 经 常 更 新 ;当选 择 一 种 格式 


构 应 访 
些 核心 


F 段 尤为 重要 。 


F 格 式 的 核心 信 ， 


] 于 监测 和 挖掘 机 构 所 管理 的 异 质 原生 数字 文档 


pe 


式 的 当 
美 


四 


生 部 门 去 选择 一 组 更 精确 的 数字 化 格式 来 推动 实践 的 发 
控制 的 部 门 ， 如 联邦 、 州 、 
NDIIPP 支持 的 “地 到 


N 


前 表 远 远 不 够 ， 还 应 该 考虑 到 数据 格式 的 长 
国家 档案 馆 和 记录 管理 局 蝇 


地 方 和 区 域 政府 。 


格式 参考 指南 提供 了 一 个 关于 
和 定 州 政府 常见 的 地 到 


并 且 成 为 快速 


些 常 见 的 地 到 


其 性 及 未 来 的 发 展 潜力 。 


要 和 指导 原则 (RIOXX )。 
于 收集 和 管理 元 数据 


的 风险 是 数字 管理 机 构 的 重大 挑战 , 特别 是 在 大 


前 脆性 的 任务 。 


的 解决 方案 09， 即 保管 机 
用 到 了 哪些 数据 上 , 且 这 
用 于 Data Curation 时 ， 仅 仅 考 虑 到 这 种 数据 格 


从 的 《公开 发 布 的 格式 行动 方案 》 通 过 鼓励 数字 内 容 产 


展 , 尤其 像 能 在 一 定 程度 上 实现 集 


imi 


H 


金 标准 格式 之 一 的 PDF/A 的 特性 以 及 对 长 期 保存 的 影响 。 


空间 归档 和 保存 合作 计划 〈GeoMAPP) ”项 目的 地 理 空间 数据 文件 
空间 栅 格 数据 与 矢量 数据 集 类 型 的 快速 参考 ， 
LE 空间 的 文件 格式 类 型 的 服务 工具 。 
NDSA 最 近 发 布 了 对 PDF/A 格式 标准 的 研究 报告 ， 报 告 分 析 了 曾经 作为 长 期 保存 的 黄 


美国 国会 图 书馆 发 布 了 长 期 保存 的 推荐 格式 规范 ，FDA (Florida Digital Archive) 也 发 布 


了 自己 的 格式 选择 范围 。Archivematica 在 其 软件 平台 上 将 格式 策略 和 行动 计划 转化 为 由 工 


有 具 和 软件 直接 实施 和 管 型 


规范 PDF 验证 工具 和 方法 。 


3.3.3 数据 不 变性 和 完整 怕 


LE 的 验证 


LE 的 行动 ， 在 实践 上 率先 近 出 了 至 关 重 要 的 一 步 。 
相关 可 利用 的 工具 包括 : 英国 国家 档案 馆 的 文件 格式 管理 工具 系统 PRONOM、 全 球 文 
件 格式 注册 系统 GDFR(Global Digital Format Registry )。 用 于 
开源 工具 包括 : JHOVE(LGPL)、DROID、 用 于 文档 格式 受 损 分 析 的 Fuzzy Logic 以 及 相关 的 


>- 


Data Curation 中 最 重要 


格式 识别 、 校 验 、 特 征 抽 取 的 


的 任务 之 一 是 保证 数据 的 不 变性 和 完整 性 ， 数 据 验证 对 确保 数 


ye 


据 可 信 发 挥 着 重要 作用 。 


(Fixity Information) , 


ISO 16363/TRAC, NDSA 的 数字 保存 级 别 ) 、 支 持 文档 起 源 和 保管 链 、 


是 


的 验证 数据 不 变性 与 完整 性 的 方法 是 检查 数据 的 不 变性 信息 


它 能 检测 数据 是 否 已 遭 破坏 、 监 控 硬 件 的 退化 、 满 足 可 信赖 需求 (如 


Curation 的 管理 周期 中 可 能 出 现 的 系统 或 人 为 错误 等 等 。 


帮助 诊断 在 Data 


不 变性 检查 通常 分 为 两 大 类 : 1) 统计 性 不 变性 检查 ， 以 统计 文档 数量 和 文件 大 小 来 进 
行 不 变性 检查 ，2〉 内 容 不 变性 检查 ， 多 采用 算法 通过 对 文档 内 容 进行 比较 和 计算 来 进行 不 


变性 检查 ， 以 确定 文档 内 容 
斯 坦 福 大 学 的 LOCKSS 系统 使 用 了 Opinion polls 机 制 ， 即 利用 保存 


是 否 发 生 改变 。 


点 来 进行 定期 的 内 容 比较 也 
则 使 用 


Fedora Repository 


MAR. 


MDS 来 验证 数字 对 象 的 不 变性 ，Fedora 会 


同样 内 容 的 多 个 结 


为 每 个 存档 对 象 的 


Zit (Datastream) 片段 及 其 每 个 版 本 生成 并 保存 MD5， 以 方便 进行 数字 对 象 的 不 变性 校 


DAITSS 系统 利用 MD5 和 SHAL 算法 定期 计算 全 部 文档 副本 的 校 验 但。 


UC3 的 Merritt 仓储 库 以 微服 务 的 方式 提供 多 种 类 型 的 接口 ,并 支持 
型 ， 可 通过 配置 服务 可 以 在 任意 时 间 实 施 不 变性 验证 。 


常用 于 产生 与 核查 


不 变性 


各 种 常用 的 摘要 类 


信息 的 工具 和 算法 有 : Expected File Size、Expected File Count、 


CRC, MD5, SHA1, SHA25. 


目前 专门 为 长 期 保存 而 开发 的 不 变性 、 完 


大 学 ADAPT 项 目 开发 的 
验证 数据 集 的 本 体 工具 vplan。 


FF 源 了 


3.3.4 数据 唯一 标识 符 与 数据 注册 


已 | 


如 


(数字 对 象 标识 符 ) 、 


被 引用 的 研究 数据 集 自 


[ 具 ACE (Auditing Control Environment) 和 正在 开发 的 用 于 


整 性 工具 有 马里 兰 


对 庞大 的 数据 进行 唯一 标识 是 Data Curation 机 构 面 临 的 一 个 关键 问题 ， 保 管 人 员 
选择 采用 通用 的 标识 符 体系 来 与 传统 资源 保持 一 致 ， 包 括 


ARK 持久 标识 符 架 构 ) ~ DOI 


Handle (句柄 系统 标识 符 ) ~ URN (统一 资源 名 称 ) 、PURL (持久 
统一 资源 定位 符 ) 、URI (统一 资源 定位 符 ) 等 。 


司 时 也 出 现 了 专门 的 研究 数据 注册 服务 , ANDS 的 Cite My Data 服务 


动 分 配 DOI。 此 外 , 为 数据 分 配 标 识 符 服务 的 系统 
发 的 DataCite、UC3 开发 的 EZID、WebCite 等 。 


能 帮助 研究 机 构 为 
还 有 大 英 图 书馆 开 


3.3.5 保存 技术 策略 


多 年 的 保存 研究 和 实践 中 逐渐 形成 了 多 种 多 样 的 、 更 符合 实践 需求 的 应 有 


日 型 的 技术 策 


略 ， 作 者 曾 进行 了 详细 的 介绍 和 评述 上 ， 本 文 仅 对 后 续 发 展 情况 进行 相应 的 补充 。 


比特 保存 通常 被 认为 是 最 简单 、 最 好 理解 的 保存 方法 而 被 普 吉 所 采 


电 是 目前 被 很 多 项 目 所 采 月 


的 


J; 格式 转换 和 迁移 
项 有 效 的 技术 策略 ; 而 仿真 则 是 被 认为 未 来 最 有 效 的 保证 数 


在 开展 相关 研究 。 


(Emulation Framework) 允许 用 户 利 用 仿真 来 访问 旧 的 计算 及 文 伯 


CD 数据 以 及 Web 信息 的 仿真 服务 。 


SCAPE 项 目 则 在 基本 


格式 迁移 、 格 式 风 险 、 存 储 库 性 和 


工作 。 


F 和 程序 


据 可 用 性 的 重要 措施 , 但 由 于 其 投资 需求 大 、 技 术 难 度 大 、 使 用 门槛 高 ， 目 前 只 有 少数 项 目 


欧盟 第 七 框架 支持 的 人 KEEP 项 目 提出 了 “仿真 作为 服务 ”的 方法 ， 其 发 布 的 仿真 框架 


目前 已 经 应 用 于 


E 的 证 据 基 础 矿 


bi 


3.3.6 大 规模 数据 保存 的 系统 与 基础 架构 
急剧 增长 的 海量 数据 、 数 据 对 象 (集合) 更 新 的 速度 (频率 ) 以 及 数据 对 象 的 多 样 性 ( 异 
质 性 ) 给 大 规模 的 数据 保存 系统 与 基础 架构 带 来 了 巨大 挑战 。 
SCAPE 项 目 主要 致力 于 解决 密集 型 计算 、 保 存 平 台 可 扩展 性 的 问题 ， 


字 归 档 、 科 学 数据 集 和 网 络 归 档 三 个 子 项 目 展 开 研究 ， 主 要 处 到 


应 对 大 数据 的 挑战 方面 ，SCAPE 已 经 初 见 成 果 ， 提 供 了 基于 实践 的 解决 方案 ， 


究 上 开展 了 大 量 


它 分 为 大 规模 数 


科学 数据 和 科学 工作 流 。 在 
构建 了 以 数 


据 为 中 心 的 分 布 式 的 SCAPE 长 期 保存 平台 ， 可 以 为 大 型 数据 的 执行 过 程 提供 基础 设施 。 


UC3 面向 大 数据 存储 的 Merritt 系统 通过 采用 “微服 务 (micro-services) ”的 开发 模式 ， 


使 得 系统 的 规模 和 功能 能 够 以 微服 务 这 种 模块 化 模式 扩展 和 更 新 , 微服 务 小 而 独立 的 特点 使 


它们 更 容易 开发 、 部 署 、 维 护 和 升级 ,使 得 Merritt 具备 了 大 数据 保存 系统 的 理想 特征 ， 如 服 


务 高 可 用 性 、 高 可 靠 性 、 高 效率 、 适 应 性 和 可 持续 性 等 。 


斯 坦 福 大 学 的 LOCKSS 系统 采用 的 是 典型 的 分 布 式 存 储 方 式 ， 它 为 图 


书馆 提供 的 是 一 


个 开放 性 源码 的 分 布 式 存储 系统 ， 可 以 在 本 地 收藏 、 管 理 电 子 资源 。LOCKSS 利用 多 机 构 


参与 、 多 副本 存储 的 机 制 


由 SDSC、 加 州 大 学 圣地 亚 哥 分 校 图 书馆 、 美 国 国家 大 气 而 
学 等 合作 的 Chronopolis 则 提供 了 美国 最 大 规模 的 协作 式 保 存 环 境 ， 利 月 
和 多 平台 间 提 供 海量 数据 的 监控 、 维 护 和 存档 管理 。 


~ 


实现 大 量 数 字 资 源 的 可 靠 保 存 。 


Archive-It 是 一 个 非 营利 项 目 


助 机 构 获 取 、 构 建 和 保存 数字 内 容 集合 。 


Portico 是 由 世界 上 最 大 的 数字 存档 补 
业务 模型 来 帮助 图 书馆 、 出 版 商 和 资助 者 协作 保存 电子 期 刊 、 


[区 所 支持 的 数字 存档 ， 它 能 提 


-互联 网 档案 馆 (Internet Archive) 的 网 络 存 档 服务 ， 它 帮 


DuraCloud 服务 则 以 一 种 经 济 高 效 的 代理 方式 利用 众多 


WAD 为 图 书馆 和 研究 机 构 解 决 了 数字 内 容 安 全 存储 


ZN 


电子 书 等 电子 学 术 


究 中 心 NCAR) 和 马里 兰 大 
网 格 技术 在 多 站 点 


一 个 可 持续 性 的 


内 容 。 


的 云 存 储 提供 


ia (AL 


6 商业 及 非 


的 基础 设施 问题 。 


3.3.7 小 结 


从 上 述 可 以 看 出 ， 关 键 技术 发 展 一 直 是 Data Curation 在 推进 过 程 中 的 重要 研究 和 发 展 
主题 ， 经 过 多 年 努力 ，Data Curation 在 关键 技术 的 研究 实践 上 取得 了 较为 丰硕 的 成 果 。 

在 元 数据 的 标准 制定 方面 , 很 多 项 目 基 于 已 有 的 标准 规范 相继 提出 和 定义 了 一 些 满足 数 
据 保 管 特殊 需求 的 元 数据 框架 和 规范 , 这 种 集成 和 融 汇 的 做 法 更 有 利于 保证 快速 满足 保存 实 
践 的 需求 , 同时 也 能 确保 元 数据 标准 的 可 用 性 ; 格式 管理 , 作为 保存 中 非常 重要 的 一 项 工作 ， 
已 经 有 多 个 机 构 推 出 了 不 同类 型 数据 的 适 于 保存 的 推荐 格式 集合 , 同时 出 现 了 很 多 开源 的 格 
式 校 验 工具 ,并 通过 格式 注册 等 机 制 来 共同 解决 格式 过 时 以 及 格式 转换 的 问题 , 是 相对 发 展 
较为 成 熟 的 领域 ， 数 据 完整 性 检验 作为 保障 数据 长 时 间 真 实 可 用 的 有 效 手 段 ，Data Curation 
领域 则 是 采用 现 有 成 熟 的 技术 方法 , 通过 制定 针对 实际 需求 的 整体 机 制 来 予以 解决 ; 保存 技 
术 策 略 属于 近 几 年 来 投入 和 研究 较 少 的 领域 , 只 有 少数 项 目 针 对 仿真 技术 开展 深入 研究 ,其 
他 研究 甚 少 ; 而 为 了 应 对 不 断 扩大 的 数据 规模 , 很 多 机 构 探 索 和 开发 了 不 少 适 合 于 大 规模 数 
据 保 存 、 上 有 具备 灵活 可 扩展 特性 的 系统 与 基础 架构 ， 从 各 种 角度 和 各 种 层面 力图 解决 数字 存储 
的 基本 问题 。 
3.4 审计 与 认证 的 发 展 


经 过 近年 来 的 壬 勃发 展 ，Data Curation 的 审计 与 认证 的 研究 与 实践 取得 了 一 定 的 进展 ， 
许多 可 信赖 的 内 容 管理 工作 过 程 都 得 到 了 认可 和 标准 化 ， 同 时 也 形成 了 一 些 国际 标准 。 

RLG 在 2007 年 发 布 的 《可 信赖 仓储 的 审计 及 认证 : 指标 与 列表 (Trustworthy Repositories 
Audit & Certification: Criteria and Checklist, TRAC ) 》 于 2009 年 成 为 ISO 国际 标准 CSO 
16363) 。 德 国 nestor 制定 的 《可 信赖 数字 仓储 的 指标 体系 》 于 2011 年 成 为 德国 国家 标准 。 
Hi = DANS 项 目 开 展 了 数字 认可 证 明 授 予 服 务 , 提供 了 16 个 指导 方针 供 仓储 库 进 行 自 评估 。 
欧盟 则 在 上 述 三 个 标准 规范 的 基础 上 提出 了 包括 基本 认证 《依据 DSA 进行 自 评 估 ) 、 
扩展 认证 《依据 ISO 16363 或 DIN 31644 进行 有 组 织 的 外 部 审计 ， 提 供 公开 的 目 评估 ) 、 正 
式 认 证 (依据 ISO 16363 或 DIN 31644 进行 全 面 认 证 ) 的 三 层 认 证 框架 。 

DCC 以 TRAC 与 nestor 指标 为 基础 ， 并 在 其 中 引入 风险 管理 的 概念 ， 开 发 出 一 套 “ 基 ]] 
风险 管理 的 数字 仓储 审计 方法 ”(Digital Repository Audit Method Based On Risk Assessment, 
DRAMBORA) 。 

澳大利亚 国家 和 州 图 书馆 (National and State Libraries Australasia, NSLA) 为 了 评估 成 
员 馆 的 长 期 保存 活动 ， 基 于 美国 卡 内 基 梅 隆 大 学 的 软件 能 力 成 熟 度 模型 (capability maturity 
model ，CMM) 提 出 了 一 个 包括 初始 、 可 重复 、 定 义 、 管 理 、 优 化 等 $ 层 保存 能 力 成 熟 度 模 
型 。 

Tessella 公司 为 了 协助 开展 长 期 保存 的 机 构 选择 长 期 保存 解决 方案 ， 提 出 了 数字 存档 成 
熟 度 模型 (Digital Preservation Maturity Model) ， 用 于 识别 不 同类 型 的 长 期 保存 解决 方案 的 
成 熟 度 。 

NDSA 发 布 的 “数字 保存 级 别 ” 是 一 套 分 层次 的 技术 实践 指南 ， 旨 在 为 保存 数字 内 容 提 
供 清晰 的 技术 基准 说 明 ， 同 时 允许 机 构 对 他 们 保管 的 特殊 资源 进行 保存 级 别 评估 。 


=H 


尽管 已 有 许多 的 研究 、 实 践 成 


果 ， 但 仍 有 许多 工作 要 做 ， 目 前 还 没有 保存 社区 广泛 认可 


个 ， 


的 认证 过 程 。 而 针对 集中 式 和 分 布 式 保存 网 络 的 可 靠 性 研究 刚刚 起 步 ， 开 发 出 一 个 全 面 、 健 


硕 的 保存 网 络 信任 框架 依旧 是 一 个 重大 挑 成 。 


4、 结 语 


数据 带 来 了 科学 研究 范式 的 革 


命 性 变化 , 科研 数据 保管 也 为 图 书馆 开展 新 的 服务 带 来 了 


机 会 与 挑战 。 图 书馆 不 仅 可 以 主动 参与 到 e-Science 环境 中 ， 更 可 以 凭借 自身 的 优势 为 科研 


数据 的 保管 提供 重要 文 持 。 


佳 


普 金 


斯 大 学 图 书馆 馆 长 Winston Tabb 认为 : “e-Science 环境 


下 , 图 书馆 是 分 布 式 网 络 的 一 部 分 、 数 据 能 够 成 为 馆藏 资源 、 数 据 中 心 会 成 为 新 型 图 书馆 书 
库 、 图 书馆 员 是 数据 科学 家 并 能 提供 数据 服务 。” 中 图 书馆 应 顺应 需求 、 抓 住 机 会 ， 打 造 


解决 方案 。 主 要 研究 包括 : 


@ 科研 数据 保管 规划 研究 
每 个 科研 机 构 都 需要 根据 实际 需求 制定 自己 的 Data Curation 政策 ， 以 此 明确 自身 在 科 


动 ， 包 括 数据 遵 选 政策 等 。 


研 Data Curation 中 的 职责 ， 并 ; 


@ 合作 模式 与 共享 机 


判 研究 


有 效 服务 于 数字 科研 的 新 模式 、 新 功能 、 新 机 制 。 
图 书馆 可 以 基于 科研 数据 生命 周期 , 研究 探讨 大 数据 科研 环境 下 的 科研 数据 保存 管理 的 


各 政策 作为 一 个 执行 框架 来 指导 具体 的 研究 Data Curation 行 


Data Curation 行动 应 依据 科研 数据 生命 周期 规律 ,与 科研 活动 紧密 结合 , 无 终 艇 入 科研 


流程 ， 从 而 有 效 地 支持 并 促进 利 


| 研 成 果 的 产 出 、 创 新 和 共享 。 因此 需要 构建 无 终身 入 科研 流 


程 的 、 与 科研 团队 紧密 合作 的 长 期 合作 和 共享 机 制 。 如 何在 尊重 知识 产权 、 符 合 政策 法 规 的 


研究 


前 提 下 进行 有 效 的 合作 共享 ， 将 涉及 政策 、 法 规 、 技 术 等 多 方面 问题 ， 相 关 的 政策 激励 、 科 
研 数据 的 版 权 和 隐私 保护 是 合作 共享 
@ ”服务 内 容 及 服务 机 制 


享 机 制 中 必须 考虑 的 重要 问题 。 


研究 在 科研 数据 生命 周期 的 各 阶段 所 需要 的 保管 服务 内 容 , 分 析 以 怎样 的 方式 无 缝 蔡 入 


科研 流程 , 以 更 加 有 效 的 方法 
经 济 价值 和 社会 价值 ， 深 入 探索 图 


@ 基础 设施 和 关键 技术 研究 
全 面 分 析 国 际 科 研 Data Curation 基础 设施 (Research Data Curation Infrastructure, RDCI) 


提供 多 样 化 保管 服务 , 使 得 科学 数据 能 够 发 挥 最 大 的 科研 价值 、 


书馆 奉 入 科研 流程 的 、 动 态 的 科学 数据 服务 机 制 与 模式 。 


方面 的 重要 规划 、 进展 、 方案 、 技术 框架 和 相关 技术 方法 。 特别 研究 文献 信息 机 构 介入 RDCI 


建设 的 策略 和 业务 模式 ， 为 融入 科研 生命 周期 的 科研 数据 支撑 和 服务 环境 建设 提供 有 益 借 


鉴 。 深 入 研究 研究 Data Curation 的 关键 技术 方法 ， 分 析 相 关 标 准 规范 、 技 术 策 略 和 工具 系 


统 ， 构 建 大 数据 科研 环境 下 的 科 下 
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Data Curation 技术 框架 。 


系统 分 析 科 研 Data Curation 和 服务 领域 中 各 种 角色 创造 者 、 专 家 、 管 理 者 、 数 据 馆 


员 ) 的 作用 和 职责 ,构建 各 种 角 


员 的 培训 和 继续 教育 提供 型 


o 可 持续 发 展 研究 


E 论 


E 


色 参 与 科研 数据 管理 和 服务 所 需 的 知识 能 力 结构 ， 为 相关 人 


和 教学 材料 框架 。 


详细 研究 覆盖 研究 Data Curation 生命 周期 的 成 本 与 效益 的 模型 ， 分 析 不 同 利益 相关 方 
需求 和 所 负担 的 费用 以 及 可 获得 的 收益 ， 为 研究 Data Curation 活动 确立 和 维持 主要 的 投资 
提供 具体 的 成 本 -效益 分 析 ， 在 此 基础 上 进行 可 持续 发 展 的 经 济 模式 研究 ， 形 成 具有 自我 生 
存 能 力 的 研究 Data Curation 生态 环境 。 


参考 文献: 


[1] DCC.What is digitalcuration?[EB/OL].[2014-12-2]. 
http://www.dcc.ac.uk/digital-curation/what-digital-curation. 

[2] NDSA.2015 National Agenda for Digital Stewardship[EB/OL].[2014-12-2]. 
http://www.digitalpreservation.gov:808 1/ndsa/documents/2015NationalA genda.pdf. 

[3] UK Data Archive.UK Data Archive Strategic Plan, 2010-2015[EB/OL].[2014-12-2]. 
http://www.data-archive.ac.uk/media/1965 18/ukda-strategicplan20102015full.pdf. 

[4] Research Data Management: Practical Strategies for Information Professionals[M]. Purdu 
e University Press, 2014:399-406. 

[5] DCC.Five Steps to Developing a Research Data Management Policy[EB/OL].[2014-12-2]. 
http://www.dcc.ac.uk/sites/default/files/documents/publications/DCC-FiveStepsToDevelopin 
gAnRDMpolicy.pdf. 

[6] DMP Planning for Big Science Projects.[R/OL].[2014-12-2].http://arxiv.org/pdf/1208.3754 
vl .pdf. 

[7] DCU.Key challenges and strategies[EB/OL].[2014-12-2]. 
http://www.dcu.gr/index.php?p=dcu&lang=en&section=1 1. 

[8] Whyte A, Wilson A. How to Appraise & Select Research Data for Curation[M]. Digital 
Curation Centre, 2010. 

[9] DCC. Disciplinary Metadata[EB/OL].[2014-12-2].http://www.dcc.ac.uk/resources/meta 
data-standards. 

[10] Layne R, Capel A, Cook N, et al. Long term preservation of scientific data: Lessons from jet 
and other domains[J]. Fusion Engineering and Design, 2012, 87(12): 2209-2212. 

[11] RIRH, IKEE, 郭 家 义 . 数字 信息 资源 长 期 保存 技术 策略 分 析 [J]. 现代 图 书 情 报 技术 ， 
2006 (4): 8-13. 

[12] Reilly S, Schallier W, Schrimpf S, et al. Report on integration of data and publications[J]. 
2011. 


[作者 简介 ] 

Rice 女 ，1968， 中 国 科学 院 文献 情报 中 心 研究 员 ， 硕 士 研究 生 导 师 。 

陈 RE 男 ，1991， 中 国 科学 院 文献 情报 中 心 ， 中 国 科学 院 大 学 硕士 研究 生 。 
李 文 燕 ” 女 ，1989， 中 国 科学 院 文献 情报 中 心 ， 中 国 科学 院 大 学 硕士 研究 生 。 
付 鸿 锅 ” 女 ，1976， 中 国 科 学 院 文献 情报 中 心 馆 员 。 

许 丽 媛 ” 女 ，1986， 中 国 科 学 院 文献 情报 中 心 馆 员 。 


地 址 : 北京 市 中 关 村 北 四 环 西 路 33 号 中 国 科 学 院 文献 情报 中 心 信息 系统 音 
邮编 : 100190 
电话 : 15600602409 


电子 邮箱 : chenyao@mail.las.ac.cn 


